iT邦幫忙

2023 iThome 鐵人賽

DAY 10
0
AI & Data

生資的路且重且遠,我要被鴨垮了Q系列 第 10

Day10. 資料格式展開說說

  • 分享至 

  • xImage
  •  

Sam(Sequence Alignment/Map) file

https://img-blog.csdnimg.cn/f213061fc3bc487193a06eff9ac6edec.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBARHpmbHkuLg==,size_20,color_FFFFFF,t_70,g_se,x_16

  1. 標頭(Header):SAM檔的開頭包含了一個標頭區域,其中包括了有關該比對文件的原始資訊。這些原始資訊可以包括參考基因組的名稱、版本、檢查和其他相關的信息。此外,還可以包含一些文檔級別的註釋,如日期、比對軟件的版本等。

https://ithelp.ithome.com.tw/upload/images/20230924/20133400WKog6NwgpP.png

  1. 對齊記錄(Alignment Records):SAM檔的主要內容是一系列的對齊記錄,每個記錄對應一個DNA片段(讀取),描述了該片段對參考基因組的比對情況。每條對齊記錄通常包括以下信息:

    • 序列名稱(QNAME):該片段的名稱或標識符。
    • 位於參考基因組上的起始位置(POS):該片段的起始位置。
    • 參考序列名稱(RNAME):參考基因組上的染色體或序列名稱。
    • 對齊的起始位置(SAM FLAG):一個包含多個標誌的整數,描述了對齊的特定屬性,如是否對齊、是否為配對片段等。
    • 比對的質量(MAPQ):表示比對的質量,通常以Phred質量分數的形式呈現。
    • CIGAR字符串(CIGAR):描述了比對的操作,如匹配、插入、刪除等。
    • 序列(SEQ):該片段的序列。
    • 貢獻參考序列的質量(QUAL):每個序列位置的Phred質量分數,用於衡量序列的準確性。
    • 可選字段(Optional Fields):可以包括一些可選的自定義字段,用於存儲額外的比對信息,如片段的重複狀態、配對信息、標記等。
  2. 未比對片段(Unmapped Fragments):如果某些DNA片段無法與參考基因組進行比對,則它們的對齊記錄可能會包含相應的信息,標記為未比對片段。

SAM檔的主要目的是存儲DNA片段對參考基因組的比對信息,並提供了關於比對質量、比對特性和其他自定義信息的詳細內容,以便進一步的分析和解釋DNA比對結果。此外,SAM格式通常與SAMtools等生物信息學工具一起使用,以進行後續的數據處理和分析。

Bam (Binary Alignment/Map) file

就是 SAM 格式的壓縮二進制版本,用於存儲DNA序列比對結果的文件。
https://ithelp.ithome.com.tw/upload/images/20230924/201334000Qn4Ih9Hfq.png

Example

因為bam file 是二進制的檔案,所以沒辦法直接看,來一個example這是我國網(之後介紹)的一個跑完的sample,我用一個生物資訊常用的工具 samtools 來看他的檔案

samtools view -h 文件名 |less -S

samtools view -h HG002_hla_extracted.bam | less -S
![[Pasted image 20230922235726.png]]
小小題外話一下,為什麼加這段 | less -S 是因為檔案一下開啟,因為太大,回不斷往下卷,整個terminal都會被佔滿......

Source

sam file
sam/bam格式
生信学习——sam和bam格式文件的shell小练习(附详细答案解读)


上一篇
Day9. Fastq & FASTA & SAM & BAM & CRAM & VCF--資料格式
下一篇
Day11. 實證醫學與 Level of evidence
系列文
生資的路且重且遠,我要被鴨垮了Q30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言